2020-ICML-[Flooding]Do We Need Zero Training Loss After Achieving Zero Training Error?

https://arxiv.org/abs/2002.08709

Introduction

DNNは非常に高い表現力を持つため、簡単に過学習をしてしまう。train loss, test lossが同時に下がる状況では理想的だが、さらに学習すると以下のように過学習する=train lossは下がるがtest lossは上がっていく。

提案する新しい手法は、ある閾値を設けてそれを下回るならgradient ascendすることで、過学習を防げるという提案。

底部に水を入れて浮かばせるといういみでfloodingらしい。

これは数式では、当初のObjectiveが $J(\theta)$ だとすると、以下のように修正をすればいい。

J(\theta) \to |J(\theta) - b| + b

outputs = model(inputs)
loss = criterion(outputs, labels)
flood_loss = (loss - b).abs() + b
optimizer.zero_grad()
flood_loss.backward()
optimizer.step()

元々 $b$ 以上の場合は恒等であり、下回った場合は $b$ を最低値として、最大で $2b$ まで増えていく。

$b$ という閾値の前後を動いたりするが、これはランダムウォークにあたり、よりよい平坦な領域へ行くことが予想されている。

既存の正則化手法は、パラメタのノルムを小さく制限する、DNNの活性度を下げる、soft labelにする、early stoppingであるが、真新しいものを導入した。併用可能である。

また、既存の手法で正則化をしてもover parametroizedなDNNでは訓練損失が0に行くのは不可避である。

Background

正則化手法

L2ノルムを制約する、ドロップアウトするなどの手法で過学習を防ぐものがある。

重み減衰、ドロップアウト、early stoppingなどがL2ノルム正則化と同じ効果を持つとわかっている。L1ノルムで正則化するものもある。

Data Augmentationというそもそもデータを偽のように増やして、学習させるのおある、

Over Parameterizeした際の二重降下曲線

Belkin, M., Hsu, D., Ma, S., and Mandal, S. Reconciling modern machine-learning practice and the classical bias–variance trade-off. PNAS, 116:15850–15854, 2019.

上の論文で提唱されてるように、パラメタを増やしていくとある値を境に、急激にtest riskも小さくなる。つまり、より大きなモデルほど高い汎化性能を獲得する。

これは線形回帰でも同じ現象がみられているうえ、どうやらエポック数の関数としてもこれを見ることができるとのこと。

Nakkiran, P., Kaplun, G., Bansal, Y., Yang, T., Barak, B., and Sutskever, I. Deep double descent: Where bigger models and more data hurt. In ICLR, 2020.

$\mathbf{x} \in \mathbb{R}^d$ がデータで、ラベルは $Y \in [1, K]$ 。
識別器 $g : \mathbb{R}^d \to \mathbb{R}$ 。
損失はクロスエントロピー損失を採用。

提案アルゴリズム

先ほども言ったようにする。

J(\theta) \to |J(\theta) - b| + b

outputs = model(inputs)
loss = criterion(outputs, labels)
flood_loss = (loss - b).abs() + b
optimizer.zero_grad()
flood_loss.backward()
optimizer.step()